El proyecto METAe (Meta-data Engine Project): concepto, implementación e integración en bibliotecas digitales
نویسندگان
چکیده
Resumen. La necesidad de digitalizar documentos impresos requiere la creación de herramientas y estándares que ayuden en esta tarea. El consorcio internacional del proyecto METAe del V programa marco de la Unión Europea ha desarrollado la herramienta Metadata Engine que aporta una solución integrada de digitalización, OCR, y etiquetado XML de textos. Mediante una sencilla interfaz, el usuario gestiona la digitalización, la extracción del formato y el preprocesado del documento impreso, la ejecución del OCR y la extracción del contenido semántico. Todo ello con una mínima supervisión del usuario. La definición de los estándares METS (Metadata Encoding & Transmission Standard) y ALTO (Analyzed Layout and Text Object) para el XML aportan un esquema de etiquetado flexible capaz de generar facsímiles con los que reconstruir el aspecto original a partir de la información almacenada. En este artículo explicamos el funcionamiento de esta herramienta, los estándares utilizados en los documentos XML generados, y por último la integración de la herramienta en una biblioteca digital.
منابع مشابه
Ediciones Digitales en las Bibliotecas de la UPC: hacia la Biblioteca Digital
Resumen. A partir de la implementación de dos bases de datos a priori independientes la una de la otra (libros virtuales y webs de interés para la comunidad universitaria), el Servicio de Bibliotecas y Documentación de la UPC se plantea el proyecto de integración de los distintos servicios que ofrece a través de su sede web mediante un esquema más amplio de bases de datos relacionales vinculada...
متن کاملPlanificación de la gestión de metadatos en bibliotecas digitales
Sin embargo, las bibliotecas digitales en España carecen de una aplicación coherente de metadatos, justificada tal vez por la falta de implantación de esta tecnología en nuestro país. Por ello, con este tutorial se pretende: Plantear una introducción al concepto y aplicación de metadatos. Definir el papel de la metainformación en un proyecto de biblioteca digital frente al rol de los metadatos ...
متن کاملLa literatura traducida en las bibliotecas digitales
La publicación de obras literarias en Internet, organizadas en bibliotecas digitales, constituye un fenómeno relativamente reciente que no está limitado a la edición de las versiones originales de estos textos. La presencia de obras traducidas es un factor común en los proyectos electrónicos más importantes. Sin embargo, las diferencias cuantitativas en cuanto a idiomas traducidos a la lengua p...
متن کاملIntegración de Colecciones Heterogéneas en Bibliotecas Digitales
Resumen. La heterogeneidad en las bibliotecas digitales dificulta la integración de colecciones documentales destinadas a constituir una nueva biblioteca digital. Dicha heterogeneidad puede deberse, entre otras, a las siguientes causas: distintos modelos de documentos, formatos diferentes, distintos modelos en los atributos, y distintas sintaxis en los lenguajes de consulta y en los datos que c...
متن کاملSistema multiagente integrador de bibliotecas digitales
Resumen. Debido a la existencia de múltiples Bibliotecas Digitales en Internet, cuando un usuario pretende obtener una buena parte de la información disponible sobre un tema, éste tiene que invertir mucho tiempo para buscar las fuentes dentro de ellas y después integrar los resultados que considera relevantes. En este art́ıculo se presenta la aplicación de un sistema multiagente que realiza búsq...
متن کامل